商务统计学基础 | 第四章 回归分析是什么
在前面几个章节中,我们学习了统计学中几个非常重要的思想和方法论,比如参数估计、假设检验等。从本节开始,我们将开启一个全新的领域,即回归分析。回归分析是用来干什么的呢?简单来说,就是研究两个随机变量X和Y的关系。它们的关系可能是线性的、非线性的,参数的、非参数的,一元的、多元的,低维的、高维的,各种各样,不尽相同。因此,回归分析中模型的具体形式也会随X和Y之间关系的不同而变化。这都是在“术”的层面讨论回归分析。其实,回归分析不仅仅是一类技术方法,它还可以站在一个更高的“道”的层面来理解。在这个层面上,可以将回归分析看成一种非常重要的思想。可以毫不夸张地说,回归分析是数据分析中最重要的基本思想。为什么呢?因为在这种思想的指导下,实践中的绝大多数业务问题,都可以被规范成为一个数据可分析问题,然后用回归分析的思想来解决。而该回归分析问题是否定义清晰,也是相应的数据分析问题能否成功解决的关键。下面将向大家详细阐述回归分析基本的方法论和思想。
前面提到,回归分析是干什么的?答:是研究两个随机变量X和Y的关系的。请注意这里的X可以是一个向量,也就是说X可以包含多种信息。如果更加准确一些,可以认为,回归分析是研究X和Y的“相关关系”的。请大家注意,绝大多数情况下,普通的回归分析只能研究X和Y的相关关系,而无法研究因果关系。这当然不是说因果关系不重要。恰恰相反,因果关系极其重要。在统计学理论中有一个重要的分支就是因果推断。它研究的就是在什么条件下、对什么样的因果关系可以做什么样的推断。这部分内容超出了本书的范畴,因此不作讨论,而绝不是说因果推断不重要。本书只探讨最常见的应用情形,在这种情形下研究X和Y的相关关系更容易一些。显然这是一个退而求其次的解决方案,但是它在实践中也经常发挥非常重要的作用,正所谓“聊胜于无”,通过规范的回归分析所得到的相关关系,总比我们随机拍脑袋瞎猜好不少。
解决了相关性的问题,再来看看什么是X,什么是Y。前面提到,回归分析之所以是一种非常重要的思想,就是因为在这种思想的指导下,绝大多数的业务问题,都可以被规范成为一个数据可分析问题。那么如何变成一个数据可分析问题呢?核心在于回答两个问题:第一、Y是什么;第二、X是什么。首先来看Y。Y是什么?在统计学中,Y俗称因变量,顾名思义,就是因为别人的改变而改变的变量。在实际应用中,Y刻画的往往是业务的核心问题,是科学研究的关键问题。下面将通过一系列场景来阐述Y是什么。
案例1:信贷风控。
信贷的业务形式很简单。某客户缺钱,找银行借钱,并约定好时间归还。届时,该客户除了应该归还银行本金以外,还应该支付一个约定好的利息。对于银行来说,是否要借钱给该客户呢?如果出借,并且该客户按时还钱了,那么银行可以获得一笔利息收入。如果该客户没有按时还钱,那么银行将失去的不仅仅是应得的利息收入,还包括出借的本金,损失惨重。可见客户能否按时还钱就是信贷业务中的核心业务问题。不幸的是,该客户是否按时还钱具有一定的不确定性,不妨定义Y=1表示该客户在未来无法按时还钱,Y=0表示该客户可以按时还钱。对于银行来说,为了尽可能规避客户到期不还钱的风险,就需要利用所有可利用的工具手段以及数据分析方法,提前预判客户是否会违约,也就是预测Y。
案例2:股票收益率。
股票投资是一件充满风险的事情。在股票市场中,赚得盆满钵满和血本无亏都大有人在。对于投资人来说,是否要投资某只股票呢?如果这只股票的收益率将会大于无风险收益率(例如3%),那么投资这只股票就能够实现超额收益率。如果这只股票的收益率将会小于无风险收益率,那么投资这只股票就会造成亏损。可见股票收益率就是股票投资中的核心业务问题。不妨用Y表示股票收益率,Y一定是具有不确定性的,因为它每天都会变化。对于投资人而言,为了尽可能规避股票投资亏损的风险,就需要利用所有可利用的工具手段以及数据分析方法,提前预估股票收益率,也就是预测Y。
案例3:精准广告。
广告收入已经成为许多互联网平台收入来源的重要组成部分。为了尽可能地提高广告的准确性,增加广告的点击率,许多广告平台都在追求精准投放。当广告平台面临一个展示广告的机会时,它是否要选择展示广告呢?如果展示广告,而且客户对广告感兴趣,就会产生点击行为,这就给广告平台带来了收益。如果客户对广告不感兴趣,客户不会点击广告,展示广告就对客户造成了骚扰。可见客户是否会点击广告就是精准广告业务中的核心业务问题,具有很大的不确定性。不妨定义Y=1表示客户会点击广告,Y=0表示客户不会点击广告。对于广告平台来说,为了尽可能规避损失广告收入或是骚扰客户的风险,就需要利用所有可利用的工具手段以及数据分析方法,提前预判客户是否会点击广告,也就是预测Y。
案例4:车辆出险。
有车险业务的保险公司会与许多车主都签订保险合同。一般来说,大部分的车主都不会出险,但也有少部分车主会发生事故,这时保险公司就需要启动核保定损等一系列流程,进行赔付。面对一个特定车主,对于保险公司而言,应该将保费定为多少呢?如果该车主将来出险的可能性高,那么就应该制定高一些的保费,不然可能会导致很大的损失。如果该车主将来出险的可能性低,那么就可以制定低一些的保费。可见车主是否出险就是车险业务中的核心业务问题。而车主是否会出险是具有不确定性的,不妨定义Y=1表示车主出险,Y=0表示车主不出险。对于保险公司来说,为了尽可能规避损失和极大化利润,就需要利用所有可利用的工具手段以及数据分析方法,提前预判车主是否会出险,也就是预测Y。
案例5:客户流失。
对于企业来说,吸引新客户固然非常重要,但留住已有的客户,防止客户流失也是不能忽视的一件事。以某家证券公司为例,如果某客户在证券公司的APP上开通了账户,但某天他再也不在APP上进行交易甚至不访问APP了,那么证券公司就流失了一名客户。证券公司的客户运营方一定很关心客户是否会流失。如果客户将来会流失,那么运营方可以通过发送短信、发送弹窗信息等方式来挽留客户。可见客户是否流失是客户运营中的核心业务问题。不妨定义Y=1表示客户流失,Y=0表示客户不流失。显然Y是具有不确定性的,因为客户的行为与他的经济条件、风险偏好等很多因素都有关,具有很强的不确定性。对于证券公司的客户运营部门来说,为了尽可能地挽留客户,做好流失预警,提前准备召回策略,就需要利用所有可利用的工具手段以及数据分析方法,提前预判客户是否会流失,也就是预测Y。
通过以上场景可以看到,什么是Y?Y就是实际业务的核心问题或者科学研究的关键问题。明确了Y,我们再来讨论一下什么是X。X就是用来解释Y的相关变量。可以是一个,也可以是很多个。我们通常把X称作:解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么X到底是什么呢?在不同的场景中,X的选择也会不同。
案例1:信贷风控。
回到上面某客户向银行借钱的例子,到期后该客户是否可以按期归还(Y=1或者0)是信贷业务的核心指标。由于该客户是否会按时还钱具有一定的不确定性,所以银行需要收集尽可能多的数据,帮助他事先预测该客户是否能够按时还钱。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以银行需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而作出更好的判断。这里以两款借贷产品“京东白条”和“借呗”为例进行说明。这两款产品都是无抵押的借贷产品,用户在填写个人信息后即可发起申请。官方会根据用户的信息以及消费记录,决定是否批准申请,并为用户量身定制放贷额度。假设该客户正在申请开通京东白条或借呗,相应的申请页面如图4.1.1所示,他需要填写图中红框所标记的个人信息。那么官方为什么要调查这些个人信息?正是因为这些信息能够帮助它们预测该客户是否会按时还钱,从而决定是否出借。从图4.1.1可以看到,申请时需要填写借款人的性别(X1)、国籍(X2)、职业(X3)、常用地址(X4)、学历(X5)、年收入(X6)、公积金(X7)、车牌号(X8)等信息。一般而言,年收入更高、有公积金的申请人按时还款的可能性更大。除了这些信息以外,官方还会根据借款人的消费记录来调整借贷额度。一般而言,消费得越多,额度就越高,也就是官方认为借款人更有可能按时还款。因此可以考虑将消费支出(X9)以及消费频率(X10)等信息作为解释性变量。这里展示的两款产品都是无抵押的金融产品,因此不需要抵押资产。如果客户是到银行申请传统的抵押贷款,银行还需要调查他的可抵押资产信息。可抵押资产可能包括:房屋(X11)、交通运输工具(X12)、土地使用权(X13)等等。一般而言,拥有更多可抵押资产的申请人按时还款的可能性更大。所有这些信息X都可以用于预测Y。
图4.1.1:京东白条和借呗申请页面
案例2:股票收益率。
根据中国证券登记结算有限责任公司(简称“中国结算”)发布的数据,2022年2月25日,我国A股投资者数量已经突破2亿大关。在股票投资中,股票收益率的大小Y是核心的业务指标。如此大规模的股民都在关心着股票收益率。遗憾的是,股票的收益率具有一定的不确定性,所以投资人需要收集尽可能多的数据,来事先预测股票收益率的大小。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以投资人需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而帮助他在投资时作出更好的判断。假设某投资者正在考虑是否要购入贵州茅台的股票,那么他就需要收集各种X,来对贵州茅台的股票收益率进行预判。可以收集哪些X呢?首先他可以关注公司的财务状况。一般来说,如果公司财务状况持续向好,具有发展潜力,股价往往会上涨,股票收益率也就更高。反之,财务状况异常的公司则有可能具有更大的投资风险。财务指标可以从企业财报中找到,从贵州茅台2021年年度报告中截取出相关指标如图4.1.2所示,其中包括大量财务会计指标。这些指标都能够作为用于预测股票收益率的X指标,这里仅选取其中几个进行简单的解读。首先考虑会计数据,例如营业收入(X1)和净利润(X2)。营业收入是包含成本的收入,而净利润是去除成本和所得税的收入。它们都能够反映企业的规模和盈利能力。人们还常常关注营业收入增长率(X3)和净利润增长率(X4),因为它们反映了企业的增长速度。报表中给出的净资产(X5)、总资产(X6)和股本(X7)都能够反映公司规模。此外报表中还有大量财务指标,例如基本每股收益(X8),该指标为净利润除以总股本,反映了属于普通股股东的当期净利润。也可以考虑稀释每股收益(X9),它在基本每股收益的基础上作出了一定的调整。还可以考虑加权平均净资产收益率(X10),它等于报告期净利润除以平均净资产,反映了每单位净资产能够给企业带来的净利润。一般而言,盈利能力越强、增长速度越快、规模越大的公司,其股票收益率也有可能更高。所有这些信息X都可以用于预测Y。
图4.1.2:贵州茅台2021年年度报告中的主要会计数据和财务指标
案例3:精准广告。
广告投放中,用户是否会点击广告(Y=1或者0)是业务的核心指标。由于用户的行为具有一定的不确定性,所以广告平台需要收集尽可能多的数据,来事先预测用户是否会点击广告。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以广告平台需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而帮助广告平台作出更好的判断。一种十分常见的广告形式是电商平台中的搜索广告,这里以京东平台的搜索广告为例。当用户在搜索框中输入自己想要购买的商品时,京东就会向用户展示一系列商品结果,这些其实就是商品广告。为了实现精准投放,京东会使用一套推荐算法,对于不同的用户按不同的顺序展示不同的商品广告。例如某用户要在京东购买生活用品,搜索了“牙刷”、“洗面奶”和“沐浴露”,展示结果如图4.1.3所示。每一条商品广告都有许多不同的元素,而这些元素可能都与用户的点击行为有一定的相关关系。比如:不同广告的标题不同(X1)、长短不同(X2)、格式不同(X3),图片颜色不同(X4),代言人不同(X5)等等。此外,商品的价格(X6)、品牌(X7)和品类(X8)也各不相同,还有不同的优惠活动(X9)。一般而言,有优惠活动的商品广告被点击的可能性更大。值得一提的是,商品可能来自不同的店铺(X10),有的来自京东自营店,有的来自官方旗舰店,而有的来自其他非官方、非自营店铺。一般而言,京东自营和官方旗舰店被点击的可能性更大。此外,不同商品广告的展示位置不同(X11),有的在前,有的在后。一般而言,位置靠前的广告被点击的可能性更大。所有这些信息X都可以用于预测Y。
图4.1.3:京东商品广告展示界面
案例4:车辆出险。
车主是否出险是车险业务中的核心指标。由于是否出险和理赔金额都具有一定的不确定性,所以保险公司需要收集尽可能多的数据,来事先预测车主是否会出险或预测车险理赔金额大小。这种预测是否能100%准确呢?显然不可能,因此具有很大的不确定性。所以保险公司需要寻找优质的X来尽可能提升预测的准确率,降低预测的不确定性,从而帮助它作出更好的判断。哪些X可以帮助预测车主是否出险呢?图4.1.4展示了一张美国艾伦金融保险集团的车险申请单,上面需要车主填写的信息其实就是保险公司所关心的X指标。从图中可以看到,需要填写的信息包括:被保险人信息、驾驶人信息、车辆信息和当前保险信息四大版块。被保险人信息版块采集了被保险人所在城市(X1.1)、被保险人所在县(X1.2)、被保险人所在州(X1.3)以及车辆是被保险人租赁还是被保险人所有(X1.4)等信息。一般而言,经济越发达的地区人口越多,车辆越多,出险的可能性也会更高。驾驶人信息版块采集了婚姻状态(X2.1)、性别(X2.2)、年龄(X2.3)和驾龄(X2.4)等信息。一般而言,已婚女性高驾龄车主出险的可能性更低。车辆信息版块采集了车龄(X3.1)、年度里程(X3.2)、主要用途(X3.3)、是否有防抱死刹车系统(X3.4)、是否有安全气囊(X3.5)和是否有防盗装置(X3.6)等信息。显然有防盗装置的车辆被盗抢的可能性更低。当前保险信息版块采集了人身伤害赔偿限额(X4.1)、财产损失赔偿限额(X4.2)、碰撞免赔额(X4.3)和综合意外免赔额(X4.4)等信息。所有这些信息X都可以用于预测Y。
图4.1.4:车险申请单
案例5:客户流失。
上面证券公司客户流失的例子中,客户是否流失(Y=1或者0)是公司运营业务的核心指标。2018年中国结算下发了一则《关于进一步规范证券账户销户业务的通知》,规定自2019年3月1日起,证券公司对于非现场开户的投资者应当提供非现场销户的便利。也就是说,许多投资者注销账户不必到现场办理,这又增加了证券公司对客户流失的担忧。有研究表明,证券公司每减少5%的客户流失,就能使盈利水平提高25%至85%。可见减少客户流失对于提升证券公司的业绩非常重要。但遗憾的是,客户的行为具有一定的不确定性,所以证券公司需要收集尽可能多的数据,帮助它事先预测客户是否会流失。如果能够提前建立客户流失预警模型,并且找到影响客户流失的因素,就能够更好地对潜在流失客户进行客户挽留,从而避免客户流失。所以证券公司需要寻找优质的X来尽可能提升预测的准确率,从而帮助运营部门进行判断。如何寻找X呢?不妨站在客户的角度考虑一下,如果我是证券公司的客户,有哪些因素会影响我流失或不流失呢?可以从资产情况、个人信息和服务质量三个方面去考虑。首先是资产情况,这包括了市值(X1.1)、交易量(X1.2)、佣金(X1.3)、盈亏(X1.4)、保证金(X1.5)、负债(X1.6)、资产(X1.7)、流入和流出(X1.8)等信息,图4.1.5展示了某项证券公司客户流失预警研究中使用的资产类X。一般而言,资产更少、亏损更多的客户更容易流失。第二个方面是个人信息,包括性别(X2.1)、年龄(X2.2)、学历(X2.3)等。第三个方面,证券公司的服务质量也会影响客户的行为,这包括了服务态度(X3.1)和专业程度(X3.2)等。经验表明,更好的服务态度和更专业的服务能力都有助于降低流失率。所有这些信息X都可以用于预测Y。
图4.1.5:证券公司客户流失研究中的部分影响因素X
通过上述介绍可以知道,在研究具体的业务问题时,第一步就是要清晰的定义 Y和X。Y是核心的业务指标,Y能否被清楚准确的定义,将直接决定后续回归分析的方向是否正确。X是用于解释Y的因素,对X的定义往往决定了我们对业务目标理解的深度和广度。X的设计往往需要创意,需要对业务有深刻的理解,也依赖人们的想象力以及数据采集能力。那么当Y和X已经被定义清楚后,回归分析要完成什么使命呢?一般而言,至少是对参数化的线性回归模型来说,它要完成三个重要的使命。
使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。而那些不相关的X变量会被抛弃掉,不会被纳入最后的预测模型。为什么?原因很简单,不干活的人多了会捣蛋。没有用的X不仅不会提高Y的预测精度,而且会狠狠的捣蛋、拉后腿,所以必须消灭。关于这方面的统计学研究有无穷多,以至于统计学中有一个非常重要的领域,叫做“变量选择”。比如上面信贷风控的案例中,银行从个人信息、消费记录、可抵押资产三个方面出发,提出了各种X变量。但通过回归分析,可能会发现其中的某些X同Y(是否按时还款)并没有显著相关。比如可能发现性别与Y并不相关,这时就需要抛弃性别这一变量。又例如车辆出险的例子中,如果通过回归分析发现驾驶人年龄同Y(是否出险)并没有显著相关,那么就需要抛弃驾驶人年龄这一变量。这就是使命1。
使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?也就是说,要把一个大概的方向判断出来。例如,对于申请人的借贷还款行为而言,他的消费支出同他的还款可能性是正相关呢,还是负相关?如果是正相关,那么申请人的消费支出越大,财力越丰厚,还款能力越高,银行就越有可能给他借钱。否则如果是负相关,那么申请人的消费支出越高,说明他越奢侈浪费,还款能力越低,银行可能越不敢给他借钱。又例如在客户流失的例子中,学历与客户流失的概率是正相关呢,还是负相关?如果是正相关,那么说明学历越高,越可能流失,证券公司更需要关注这些学历高的客户。如果是负相关,那么说明学历越高,流失的可能性越小。这就是使命2。
使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,这样我们就可以知道不同变量之间的相对重要性。例如,证券公司有两个不同的客户。A客户负债X1=10万,资产 X2=1万。B客户恰恰相反,资产 X1=10万,负债X2=1万。请问两位客户谁流失的可能性更大?请注意:他们的资产与负债之和是相同的,都是11万。但是他们流失的可能性可能是不同的。又例如,有两位客户都买了车险。A客户有十年的驾驶经历,前一年刚买了新车,于是对应的车龄X1=1年,驾龄X2=10年。B客户是一名刚上路一年的新手司机,开的是车龄十年的二手车,于是对应的车龄X1=10年,驾龄X2=1年。请问两位客户谁更有可能出险?请注意:他们的车龄和驾龄之和都是11年,但是他们的出险可能性大小可能是不同的。这个时候,如果我们能够通过数据建模,赋予X1和X2不同的权重,也就是不同的回归系数,这个问题就好回答了。这就是使命3。
这就是回归分析要完成的三个使命:第一、识别重要变量;第二、判断相关性的方向;第三、要估计权重(回归系数)。在理解了回归分析的基本思想后,下一节我们将给出几种常用的回归分析模型,大家会看到,回归分析是套非常重要的方法论,不同的数据类型需要不同的回归模型。
往期推荐